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Ji] 要 : 为 了 解决 现 有 哈 希 算法 的 中 心 点 不 确 性 和 离散 编码 的 表达 有 限 的 问题 ， 提 出 迭代 自 组 织 哈 希 算 法 (iterative 
self-organizing hashing，ISOH)。 该 算法 采用 和 迭代 自 组 织 数据 分 析 量 化 空间 ， 以 提高 近邻 检索 准确 率 ; 在 聚 类 中 心 初 
始 化 方面 ， 使 用 最 远 平均 距离 方法 选择 初始 聚 类 中 心 ， 避 免 初始 聚 类 中 心 的 随机 性 ; 为 解决 国定 编码 长 度 所 表示 的 
二 值 编码 种 类 有 限 的 问题 ， 提 出 建立 多 重 编 码 机 制 ; 在 时 间 复 杂 度 方面 ，ISOH 算法 采用 乘积 空间 ， 以 较 低 的 代价 
得 到 更 长 的 编码 。 实 验 结果 表明 ,在 SIFT、GIST 和 CIFARIO 数据 集 上 与 K 均值 哈 希 和 可 扩展 图 哈 希 等 具体 化 哈 希 
算法 相 比 ，ISOH 算法 能 有 效 提 高 近邻 检索 的 准确 率 。 

关键 词 : 迭代 自 组 织 数 据 分 析 ; 多 重 编码 ; 乘积 空间 ; 最 远 平均 距离 
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Iterative self-organizing hashing algorithm 


Han Xuelian, Tian Aikui*, Wang Zhen, Lu Haitao 
(College of Computer Science & Technology, Shandong University of Technology, Zibo Shandong 255000, China) 


Abstract: To fix the randomness of the cluster centers and the limited representation of the discrete binary codes, this paper 
presented a method termed Iterative Sel£organizing Hashing (ISOH) . This algorithm employed the Iterative 
Self-organizing Data Analysis to quantify the original space. As a result, the above measurement improves the retrieval 
accuracy largely. During initializing the clustering centers, this method utilized the farthest average distance to fix the 
randomness problem. As the fixed binary bits can represent a limited number of the codes, the hash based image ANN 
retrieval method has poor performance. To this end, this paper established the multi-encoding mechanism. In terms of the 
training time complexity, this method employed the product space mechanism to obtain longer encoding results at a lower 
cost. This paper conducted the comparative experiments in SIFT, GIST and CIFARI0 datasets. The experimental results 
show that ISOH is superior K-means Hashing and Scalable Graph Hashing etc. in achieving image ANN retrieval. 

Key words: iterative self-organizing data analysis; multiple coding; product space; farthest average distance 


0 Bs 加 , 基于 树 型 索引 结构 的 检索 效率 将 变 低 .为 解决 这 一 问题 ， 
di 学 者 们 引入 了 基于 哈 希 的 图 像 检索 技术 喇 。 

随 着 互联 网 技术 应 用 的 成 熟 ， 图 像 、 视 频 等 数据 呈现 爆 基于 哈 希 的 图 像 检 索 技 术 回 的 基本 思想 是 将 高 维 浮 点 向 
炸 式 增长 ， 如 何在 海量 数据 中 快速 找到 人 们 感 兴趣 的 图 像 已 量 表示 成 紧凑 二 进 制 编码 ， 并 根据 汉 明 距离 检索 近邻 点 。 最 
成 为 研究 热点 。 早 在 20 世纪 70 年 代 人 们 就 已 经 提出 基于 文 早 的 哈 希 算法 是 局 部 敏感 哈 希 算法 (locality sensitive hashing, 
本 的 图 像 检索 技术 [34, 采用 人 工 标 注 图 像 的 方法 检索 相似 图 SHJI， 其 随机 生成 线性 哈 希 映射 函数 ， 并 根据 数据 点 与 线 
像 ， 操 作 简单 ， 检 索 速 度 较 快 。 但 随 着 图 像 规模 不 断 扩 大 ， 性 哈 希 函数 的 映射 结果 生成 二 进 制 编码 。LSH 算法 的 哈 希 函 
人 工 标注 图 像 变 得 越 来 越 困 难 。 同 时 ， 由 于 文字 描述 不 能 确 数 是 随机 生成 的 ， 对 训练 数据 的 依赖 性 较 弱 ， 需 要 生成 相对 
切 地 表达 图 像 的 语义 信息 ， 导 致 某 些 检索 结果 不 符合 用 户 的 较 长 的 二 进 制 编码 才能 产生 较 好 的 近邻 检索 效果 。 为 了 保证 
需求 ， 如 必 应 、 百 度 和 360 搜索 引擎 上 搜索 关键 词 “ 篮 球 ” 采用 紧凑 二 进 制 编 码 也 能 得 到 较 优 的 近邻 检索 结果 ,Shen 和 


E 


结果 如 图 1 所 示 。 从 图 中 可 以 看 出 ， 返 回 图 像 中 除 篮 球 外 ， Weiss 等 人 [3 提出 谱 哈 希 算 法 (spectral hashing, SH)， 通 过 分 
还 有 篮球 明星 、 篮 球 管 和 篮球 场地 等 。 为 了 解决 基于 文本 的 割 谱 图 来 学 习 数 据点 的 二 进 制 编码 .其 图 形 建 模 的 复杂 度 高 ， 
图 像 检 索 技 术 的 不 足 ， 学 者 们 提出 了 基于 树 结构 的 图 像 检 索 而 且 要 求 数 据 集 服从 均匀 分 布 ， 可 是 实际 数据 集 并 不 符合 这 
技术 Bl。 一 要 求 。 针 对 图 形 建 模 复 杂 度 高 的 问题 ，Jiang 等 人 四 提出 了 

基于 树 结构 的 图 像 检 索 技术 中 以 树 结构 存储 图 像 特征 ， 可 扩展 图 哈 希 算法 (scalable graph hashing, SGH). 该 算法 可 以 
并 为 每 个 叶子 节点 设 定 一 个 闷 值 。 在 检索 近邻 图 像 时 ， 利 用 通过 特征 变换 方式 有 效 地 逼近 整个 图 ， 无 须 再 显 式 计算 成 对 
每 一 层 的 树 型 结构 ， 快 速 剔 除 大 部 分 数据 来 提高 近邻 检索 速 的 相似 图 抢 阵 。 但 是 在 实际 应 用 中 ，SGH 算法 在 进行 特征 变 
度 。 以 K-D 四 树 为 例 ， 其 工作 方式 (图 2) 因 形似 大 树 而 得 名 ， 换 时 ， 参 数 p 需要 通过 交叉 验证 技术 来 调整 。 与 基于 图 的 哈 


通过 对 查询 空间 的 不 断 细 分 ， 并 对 细 分 后 的 空间 进行 同时 查 ”和希 算 法 不 同 ， 主 成 分 分 析 哈 希 算 法 (principal component 
询 ， 从 而 达到 加 快 检索 速度 的 目的 。 但 是 随 着 特征 维度 的 增 。 ”analysis hashing, PCAH)U?! ft pë JL Jie c Ri 46 $ 15 (random 
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录用 定稿 韩 雪莲 ， 


rotating hashing，RRJ)04223 采 用 超 立 方 体 量 化 和 编码 浮 点 数据 ， 


但 超 立 方 体 顶 点 是 固定 的 ， 灵 活性 差 ， 对 数据 点 集 的 空间 分 
布 适 应 能 力 弱 。K 均值 哈 希 算法 (K-means hashing, 


KMH)P.. ifs: K-means 对 数据 集聚 类 , 数据 间 的 距离 用 相 
对 应 的 聚 类 中 心间 的 距离 近似 ， 达 到 允许 超 立方 体 进行 拉 伸 


的 效果 ， 


不 佳 。 


: 迭代 自 组 织 哈 希 算法 


HAE 


有 较 好 的 灵活 性 
中 心 的 选择 是 任意 的 ， 
聚 类 过 程 


Pa 


«n P 


(E BEBHRS SR HR 
图 1 搜索 文本 “篮球 ”的 检索 结果 


Fig. 1 Retrieval results of search text "basketball" 
为 解决 上 文中 提 到 的 几 种 算法 存在 的 灵活 性 差 、 准 确 率 
低 等 问题 ， 本 文 提 出 了 迭代 自 组 织 喻 希 算法 (ISOH)， 采 用 达 


(a) 必 应 搜索 引擎 检索 结果 


代 自 组 织 数据 分 析 (iterative self-organizing data analysis, 


suis [= m m 
E sek Ui 


- TEE Hd 


(c)360 搜 索引 擎 检索 结果 


类 所 包含 数据 点 的 实际 情况 ， 动 态 地 
以 达到 较 好 地 编码 效果 。 
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图 2 K-D 树 结 构 
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日 是 K-means 算法 的 初始 村 
聚 类 效果 不 稳定 ， 而 且 聚 类 中 心 数 在 
定 不 变 的 ， 导 臻 KMH 算法 的 近邻 检索 性 能 


Qe 


A 


Fig.2 K-D tree structure 


周 整 聚 类 中 心 的 数 


RK 


, 


b) 为 解决 初始 聚 类 中 心 的 随机 性 和 盲目 性 的 问题 , 本 文 


ISODATA)05、 最 远 平 均 距 离 方 法 、 多 重 编码 409 和 乘积 空间 
BUE EAR, 使 算法 具有 高 准确 率 。 其 算法 流程 如 图 3 所 示 。 
首先 ， 通 过 乘积 空间 对 训练 数据 集 和 测试 数据 集 进行 预 处 理 
(图 3(a)); 其 次 ， 利 用 相似 性 保持 方法 获得 聚 类 中 心 Z， 并 根 
据 聚 类 中 心 对 训练 数据 集 ( 预 处 理 后 ) 和 测试 数据 集 ( 预 处 理 
后 ) 进 行 归 类 操作 (图 3(b));， 然 后， 建立 多 重 编码 机 制 对 其 进 
行 编码 (图 3(c); 最 后 ， 计 算 汉 明 距 离 AXi YAB 3(d))。 

本 文 算法 具有 如 下 创新 点 : 

a) 在 空间 量化 方面 ，ISOH 算法 使 用 了 和 迭代 自 组 织 数据 
分 析 09 算 法 。 与 KMH 算法 相 比 , ISODATA 算法 可 根据 各 个 


使 用 最 远 习 
法 先 将 全 体 档 
点 ,距离 第 一 
之 后 依次 对 类 
数 到 达 给 定数 目 为 止 。 

c) 本 文 建立 多 习 


Fs 


E 离 方法 选择 初始 
本 点 作为 一 类 ， 


聚 类 中 心 ù 


平均 值 作为 入 


NRR H O A 


E A RU 6 Ls 


fF 本 点 为 第 
样本 点 数 多 者 进行 分 裂 处 理 


小 有 


像 检 索 技 术 中 由 固定 编码 长 度 导致 表示 种 类 有 


效 解决 了 基于 哈 希 的 图 
限 的 问题 


最 远 平 均 距 离 方 
一 个 聚 类 中 心 
ZAR% 


, SEJE: 


HOR, 
ENN 


d) 为 了 能 以 较 低 的 代价 得 到 更 长 的 编码 ，ISOH 算法 运 


用 乘积 空 


jg], 


通过 对 原始 空 


间 进 行 平衡 划分 ， 再 


子 空间 进行 相应 操作 来 降低 算法 的 时 间 复 杂 度 。 


X Train Bl 


chinaXiv 


X Train 


邻 聚 类 
i- [| 
X Test 
Ü- 近邻 聚 类 


1 ”相似 性 保持 算法 


1.1 相似 性 保持 ISODATA 算法 
KMHU^3: H 


在 没有 先 验 条 件 


P 心 是 随机 生成 的 , 导致 近邻 检索 
性 能 不 稳定 。 "P KMH 算法 的 聚 类 中 


的 情况 下 ， 由 预先 给 定 值得 到 的 聚 类 效果 


FP 心 数 是 定 值 ， 


Xy) XQ) 
X1) X4Q) 
X31) X32) 


ERU XQ) 


多 重 编码 


X Test B2 
Y1) YuQ2) 
Yl) YQ) 
Ya(l) Ys(2) 


Yu) YQ) 


(c) 


图 3 ISOH 算法 总 体 框 架 
Fig. 3 Overall framework of ISOH algorithm 
但 所 生成 的 聚 类 
的 影响 ， 
E 离 来 确定 新 聚 类 中 心 点 。 
出 了 一 种 新 的 初始 村 


确定 聚 类 中 心 点 之 间 的 吕 
为 了 解决 上 述 问 题 ， 本 文 提 


IC Y.) 2 Y, dX DY, D/L 


对 每 个 


聚 类 中 心 点 和 比例 系数 0 


方法 ， 称 为 最 远 3 


不 理想 。ISODATA 算法 [5 根据 实际 情况 动态 调整 聚 类 中 心 


数 ， 解 决 了 KMH 算法 


聚 类 中 心 选 择 言 
文 进行 如 下 改进 。 


1.1.1 聚 类 中 心 初 始 
现 多 数 算法 常 采 用 最 


k 聚 类 中 心 不 可 调 的 问题 ， 但 存在 初始 
性 和 无 法 准确 设 定 闵 值 的 问题 。 为 此 ， 本 


HS 中 心 点 [18] 


FEF 均 距离 法 ， 包 含 三 步 : 
平均 值 作为 第 一 个 聚 类 中 心 点 


与 第 一 个 聚 类 中 心 点 之 间 的 】 


类 中 心 点 ， 并 依据 最 近邻 原 贝 
划分 样本 点 数目 较 多 的 类 ， 


所 示 。 


1.1.2 分 裂 与 合并 的 辣 值 


聚 类 中 心 
a) 将 全 体 样 本 点 
\， 以 解决 随机 性 问题 
距离 最 远 的 样本 点 作为 下 一 个 聚 
j 将 样本 点 划分 为 两 类 ; 
Tini. DR EE. 


r4 
e 


is 


; b) 选 取 


c) 依 次 


ISODATA 算法 15 通过 人 机 交互 修改 分 裂 与 合并 的 闵 值 ， 


201904.00059v1 


chinaXiv 


录用 定稿 
费时 费力 。 针 对 以 上 问题 ， 本 文 对 ISODATA 算法 的 阔 值 进 
行 相 应 改进 。 

算法 1 初始 化 聚 类 中 心 


输入 : 数据 集 X={Xa, xz，…，Xn}。 

输出 : 初始 聚 类 中 心 Z={zl, zz2，，zk}。 

1 初始 化 count-(count[i]|i-1,2,...,K), K^; 

2 设 定 中 心 点 为 第 一 个 聚 类 中 心 zi, 样本 点 数目 为 count [1]-n: 

3 重复 

3.1 找 出 count 中 的 最 大 值 ， 并 将 最 大 值 的 索引 存 入 max; 

3.2 在 Zmax 所 在 类 中 ， 选 取 距 离 聚 类 中 心 Znox 最 远 的 样本 点 作为 第 

K?+1 个 聚 类 中 心 点 ; 

3.3 利用 最 近邻 原则 进行 归 类 ， 更 新 聚 类 中 心 点 ; 

3.4 统计 每 类 样本 点 数 

3.5 直到 K"-K 为 止 ; 
4 BUB: 不 同 维度 上 的 标准 差 反 映 了 样本 在 特征 空间 


count; 


HEE, Fi 迭代 自 组 织 哈 希 算法 
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1 2 
€; -amminc,C- 2, -of 
re 


(6) 
+24% w;(d(ci,cj)- d, (i, j) 


其 中 :4 为 常量 (在 本 文中 三 10); dili, j) &v-h'?(i, j)dézR AE lE 
后 的 索引 间 汉 明 距 离 ，j22 是 汉 明 距离 的 平方 根 ，v 是 常量 
在 算法 中 由 主 成 分 哈 希 算法 初始 化 。 

综 上 ， 相 似 性 保持 算法 的 基本 流程 如 图 4 所 示 。 


2 编码 


2.1 多 重 编码 

于 ISODATA 算法 得 到 的 聚 类 数目 可 能 会 大 于 给 定 的 
聚 类 数量 ， 而 固定 长 度 的 二 进 制 编码 所 能 表示 二 值 编码 的 种 
类 数量 是 有 限 的 。 当 编码 长 度 为 b 时 ,其 编码 种 类 只 能 表示 
K=? 种 。 若 最 终 聚 类 中 心 数目 K' 大 于 给 定 值 K， 则 会 超出 编 


9" 


不 同方 向 上 与 聚 类 中 心 的 位 置 偏差 。 如 果 某 个 类 中 样本 分 散 
程度 较 大 且 样 本 数量 较 多 ， 则 对 其 进行 分 裂 操 作 。 若 每 类 分 
量 中 标准 差 的 最 大 值 为 gjwary=1,2,.….,Ne， 则 令 5 HEW Gjamx 
的 平均 值 ， 


A RUM bs H 

0, -axS,a»1 (1) 
ARE: 对 数据 集 进行 类 别 划分 时 ， 应 保证 最 小 化 类 
内 距离 ， 最 大 化 类 间距 离 09]。 在 类 别 间 最 短 距 离 的 设 定 问 题 
上 ,本文 引入 了 最 小 生成 树 P9， 其 权重 值 由 各 个 聚 类 中 心间 
的 距离 值 表示 。 假 定 权 重 和 为 5S,， 则 合并 阔 值 为 


&- p Q) 


其 中 : 0«gcl; NM 是 聚 类 中 心 数 。 
1.2 相似 性 保持 目标 函数 
ISODATA 算法 在 空间 量化 时 会 产生 量化 误差 , 且 采 用 汉 
明 距 离 近似 代替 欧式 距离 会 产生 相似 性 误差 。 为 减 小 算法 误 
差 ， 若 通过 罗列 所 有 可 能 为 单元 空间 分 配 最 优 的 索引 ， 其 时 
间 复 杂 度 高 。 例 如 ， 当 编码 长 度 为 上 时 ， 则 分 配方 式 有 (220 
种 可 能 。 为 此 ， 本 文 交替 优化 式 (3) 中 的 目标 函数 ， 同 时 最 小 
化 量化 误差 和 相似 性 误差 。 
E = E puan + Abay 8) 
其 中 :Eqwan 表示 量化 误差 ， 其 定义 如 式 (4) 所 示 。 其 中 : i(x) 
表示 包含 样本 点 x 的 码 字 索 引 ;， cm 表示 索引 为 io 的 码 字 ; 
了 是 样本 点 数 为 的 训练 数据 集 。 


1 2 
E. - Y peel (4 


相似 性 误差 是 使 各 个 码 字 分 配 到 的 索引 可 以 更 近似 地 表 
示 各 码 字 之 间 的 欧 氏 距离 。 相 似 性 误差 的 公式 为 


E, =$ om dese) -d,G D (5) 


Ep: wann In^; ni 和 nj 分 别 表示 索引 为 i 和 jj 的 样本 点 数 ; 
d(ci , 0) 表示 人 码 字 ci 与 cj 之 间 的 欧 氏 距离 ，d(ci , cj) F 
ci 5j cj 之 间 的 欧 氏 距离 ，4dn(i, 让 表示 索引 i 与 j 之 间 的 汉 明 距 
Ao 

E, BURRE H ERRETEN T : 

a) 分 配 步 又 ， 固 定 码 字 优化 索引 。 

将 每 个 样本 点 分 配 到 距离 它 最 近 的 码 字 上 。 

b) 更 新 步 又， 固定 索引 优化 码 字 。 

任何 码 字 的 更 新 取决 于 所 有 其 他 的 码 字 。 
优化 每 个 码 字 <; ， 其 他 码 字 固定 。 


所 以 本 文 顺序 


码 范 围 。 


(detta ) 


一 一 > 删除 第 类 一 


AER | 


图 4 相似 性 保持 方法 流程 
Fig.4 Flow chart of similarity preservation method 
若 样本 点 被 分 成 了 五 个 徐 ， 长 度 为 2 的 编码 只 能 表示 4 
个 聚 类 中 心 点 。 为 解决 上 述 问题 ， 本 文 先 将 聚 类 中 心 点 分 成 


K=2b 类 ， 然 后 再 对 其 进行 编码 ， 如 图 5 所 示 。 从 图 5 中 可 
以 看 出 ， 聚 类 中 心 点 经 过 聚 类 后 ，c4 和 c5 归 为 一 类 ， 了 映射 
为 相同 二 值 码 。 这 种 编码 方式 可 避免 聚 类 中 心 数 超出 编码 范 
围 ， 但 失去 了 ISODATA 算法 的 聚 类 优点 ， 而 且 检 索性 能 较 
低 , 复杂 度 较 高 。 为 解决 以 上 问题 , 本 文 引 入 了 多 重 编码 09， 
其 基本 思想 是 为 数据 点 分 配 多 组 二 进 制 编码 ， 并 根据 平均 汉 
明 距 离 ( 式 (7)) 检 索 近 邻 点 。 若 二 进 制 编码 长 度 为 bp， 二 重 编 
码 能 表示 的 数量 为 22, 工 重 编码 能 表示 的 数量 就 是 2^5. 


d(X,, Y) =} d, (X: D,Y; D/L (7) 
1=1 


其 中 : 天 表 示 训 练 数据 集 的 第 i 个 样本 点 ;， 术 表示 测试 数据 
集 的 第 j 个 样本 点 ; AORAR Xi W I Am; dX, Y) 
表示 XS 0) 之 间 的 汉 明 距离 ; L 表示 为 L 重 编码 。 

如 图 6 所 示 ， 本 文采 用 二 重 哈 希 映 射 函 数 对 数据 集 进行 
编码 , 为 样本 点 分 配 两 组 二 进 制 编码 , 数据 点 (c4, cl) 和 (c4, c5) 
之 间 的 平均 汉 明 距离 均 为 0.5， 则 在 汉 明 空间 内 检索 c4 的 近 
邻 点 时 ， 会 同时 返回 cl cS. 
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REA 104 个 查询 数据 集中 随机 选取 10 个 。GIST 数据 集 包 
E 5x 105 个 训练 数据 集 ，103 个 查询 数据 集 ， 在 实验 中 从 5x 
105 个 训练 数据 集中 随机 选取 了 10* 个 数据 点 做 训练 数据 集 。 
图 5 基于 k-means 聚 类 的 编码 示例 CIFAR10 数据 库 中 ous GIST 特征 ， 它 是 从 CIFARIO 
Fig. 5 Coding example based on K-means clustering 数据 库 图 像 中 提取 出 来 的 ， 总 共有 6x 104 个 数据 点 ， 随 机 选 
m 取 103 个 数据 点 做 测试 数据 集 ，104 个 数据 点 做 训练 数据 集 。 
e (LD 3.2 评价 指标 
XE 00 本 文中 使 用 较为 广泛 的 评价 标准 : A ER (reca PAF 
nei 010 1535] 5] IE tfi X (mean average precision, mAP)U?!, 7H El% (recall) 
= 表示 在 已 经 返回 的 检索 结果 中 , 真正 近邻 数据 点 索 占 的 比例 ， 
图 6 ”基于 多 重 哈 希 函数 的 编码 示例 其 公式 为 
Fig.6 Coding examples based on multiple hash functions Recall = #(retrieved relevant points) (8) 
2.2 推广 到 乘 D zs [g] (all relevant points) 
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训练 数据 点 和 10“ 个 查询 数据 点 。 在 实验 中 从 105 个 128 维 
的 特征 点 中 随机 选取 104 个 数据 点 做 训练 数据 集 ， 查 询 数 据 


uy 


当 编 码 长 度 b 很 大 时 ， 需 要 计算 和 存储 25 大 小 的 码 书 ， HH: (retrieved relevant points) 表 示 返 回 结果 中 真正 近邻 


而 ISODATA 算法 很 难 给 出 太 大 的 码 书 ,为 了 解决 这 一 问题 ， 据点 的 数量 ; #(all relevant points) 表 示 数 据 集中 所 有 近邻 数据 


在 本 文中 通过 将 D 维 空间 划分 为 M 个 子 空间 ， 再 对 每 个 子 ”点 的 数量 。 


Ti 


" 


空间 进行 相应 操作 。 HERRERA 期 望 划分 后 的 子 空间 平均 均匀 准确 率 (m4P) 的 值 反 映 的 是 算法 返回 近 领 数据 
是 相互 独立 的 ， 且 每 个 子 空间 的 方差 是 均衡 的 。 点 的 速率 , 其 值 越 大 ,表示 算法 返回 真正 近邻 点 的 速率 越 快 。 

在 本 文中 使 is 求 前 DD 个 最 大 主 成 分 ”m4P 值 的 公式 如 式 〈9) 所 示 。 
元 素 ， 将 所 有 的 主 成 分 元 素 按 递 减 的 方式 排序 ， 再 按 从 大 到 EN NE O) 
小 的 方式 先 将 M 个 主 成 分 元 素 分 别 分 配 到 M 个 桶 内 ， 之 后 IQ] ^ K; rankCj) 


依次 向 特 得 


F 值 总 和 最 小 的 桶 内 分 配 主 成 分 元 素 ， 每 个 桶 内 最 其 中 : |2| 表 示 碍 询 数据 集 的 大 小 ; Ki 表示 第 i 个 查询 数据 点 


多 存放 D/M 个 主 成 分 元 素 ， 直 到 所 有 元 素 分 配 完 为 止 。 采 用 ”的 真正 近邻 点 的 数量 ;j 表示 查询 数据 点 的 第 7 近 令 点 ;rank() 


上 述 方式 可 
ISOH 算法 在 编码 长 度 很 大 的 情况 下 ， 仍 然 可 以 产生 很 大 的 。” ”3.3 结果 与 讨论 
将 ISOH 算法 和 现 有 的 一 些 算法 进行 比较 , 所 有 
。 实 验 


WP. 


3 ”实验 


以 将 D 维 空间 均衡 地 划分 为 M 个 子 空间 。 这 样 ”返回 查询 数据 点 的 第 7 近邻 点 在 查询 结果 中 的 序号 。 


算法 进行 比较 的 算法 的 代码 都 是 使 用 公开 默认 设置 


与 ISOH 


rH 


使 用 的 三 种 公开 数据 集 分 别 是 SIFTIM. GIST 和 CIFARIO, 
3.1 数据 集 选择 的 测试 真 值 是 近邻 欧 氏 距离 (NN=10)， 测 试 的 编码 长 度 


GISTU?ffl CIFAR10P9!, SIFTIM 数据 集 包 含 1064A 128 维 的 
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图 7 七 种 哈 希 方法 对 GIST 数据 集 分 别 进行 32、64 和 128 位 编码 的 近邻 检索 性 能 对 比 结果 
Fig.7 ANN search performance of seven hashing methods on GIST dataset encoded using 32, 64, and 128 bit codes 
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图 8 7 种 哈 希 方法 对 CIFARIO 数据 集 分 别 进 行 32. 64 和 128 位 编码 的 近邻 检索 性 能 对 比 结果 
Fig.8 ANN search performance of seven hashing methods on CIFAR10 dataset encoded using 32, 64, and 128 bit codes 


在 本 文中 ， 使 用 的 三 种 公开 数据 集 分 别 是 SIFTIMP?, 分 别 是 B=32、64 和 128 位 。 实 验 结果 如 图 7-9 所 示 。 
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图 9 7 种 哈 希 方法 对 SIFTIM 数据 集 分 别 进 行 32、64 和 128 
Fig.9 ANN search performance of seven hashing methods on SIFTIM dataset encoded using 32, 

从 以 上 实验 结果 可 知 ，ISOH 算法 的 检索 性 能 一 直 处 于 从 以 上 近邻 检索 实验 结果 可 知 ，ISOH 算法 的 近邻 检索 
最 优 状态 。 在 SIFT 数据 集 上 ，KMH 算法 虽然 检索 性 能 表现 ”性 能 优 于 其 他 算法 。LSH 算法 中 的 哈 希 映射 函数 是 随机 生成 ， 
较 优 ， 但 是 从 图 7~9 的 实验 结果 中 可 以 看 出 ，ISOH 算法 不 其 稳定 性 差 ， 近 邻 检 索性 能 偏 弱 。SH 算法 需要 假定 数据 集 


立 编码 的 近邻 检索 性 能 对 比 结果 
64, and 128 bit codes 


Tr 


仅 在 SIFT 数据 集 上 的 性 能 一 直 处 于 KMH 算法 之 上 , 而 且 在 “服从 均匀 分 布 ， 而 本 文 给 出 的 三 种 数据 库 都 不 是 均匀 分 布 ， 
其 他 两 种 公开 数据 集 上 其 性 能 也 明显 高 于 KMH 算法 ; RR 算 其 近邻 检索 性 能 较 弱 。SH 算法 在 构建 数据 点 间 的 相似 图 时 ， 
法 在 SIFT 数据 集 上 ， 编 码 长 度 为 128 bit 时 ， 其 检索 性 能 其 时 间 复 杂 度 高 。 为 了 降低 时 间 复 杂 度 ，SGH 算法 通过 特征 
好 ,但 是 在 其 他 状态 下 一 直 处 于 较 低 状态 ; PCAH 算法 在 编 。” 转换 方式 构建 相似 图 ， 但 是 为 得 到 较 好 的 检索 结果 ， 需 要 通 
jon 码 长 度 较 小 的 情况 下 ， 其 检索 性 能 相对 较 好 ， 然 而 当 编 码 长 过 人 机 交互 方式 不 断 调整 参数 o. PCAH 算法 将 位 于 映射 函 
Ó 度 变 大 ， 其 检索 性 能 不 佳 。SH 算法 在 三 种 数据 集 上 的 检索 。” 数 平面 两 侧 的 近邻 点 映射 为 不 同 的 三 进 制 编码 ， 其 汉 明 距离 
LO 性 能 处 于 中 上 状态 , 却 始终 没有 超过 ISOH 算法 。 在 CIFAR10 ”相应 增加 ， 导 致 近邻 检索 性 能 相对 较 弱 。RR 算法 通过 旋转 
© ARE, AE SGH 算法 检索 性 能 较 优 , 但 是 与 ISOH 算法 被 特征 向 量 映 射 后 的 数据 集 减 小 量化 误差 ， 可 是 该 算法 的 旋 
C5 ” 相 比 ， 其 检索 性 能 较 弱 。LSH 算法 在 图 9(c) 中 的 检索 性 能 较 ” 转 矩 阵 是 随机 生成 的 ， 算 法 性 能 稳定 性 差 。 KMH 算法 使 用 
e 好 ， 可 是 在 其 他 情况 下 检索 性 能 较 差 。 K-means 算法 进行 空间 量化 ， 但 其 预先 给 定 聚 类 中 心 数目 ， 
em 表 1 各 种 算法 在 GIST 数据 库 上 的 mAP 值 /% 适应 性 差 ， 使 得 检索 性 能 较 弱 。 
e Table 1 Map values of each algorithm on GIST datasets /% ISOH 算法 近邻 检索 方面 优 于 其 他 算法 可 从 准确 率 方面 
©) bit 32 64 128 得 到 直观 体现 。 七 种 哈 希 算法 在 三 种 不 同 的 数据 集 上 的 准确 
NN 10 100 10 100 10 100 率 如 表 1~3 所 示 。 从 表 中 可 以 看 出 ，ISOH 算法 的 准确 率 高 
E ISOH 1.78 10.40 2.37 12.09 3.54 15.11 于 其 他 Uk. Hi RR 和 PCAH 算法 相 比 ，ISOH 算法 使 JT 
n ME MR ME P P a 自 适应 较 强 地 ISODATA 算法 进行 空间 量化 ， 允 许 超 立 方 体 
> 3 Hy e Ws E t pos 进行 拉 伸 ， 从 而 使 单元 空间 划分 更 加 细致 ， 算 法 的 准确 率 显 
>< LSH 0.39 220 0.6 3.60 1.82 8.05 HEN. ges Ma TE SIETI M 数据 集中 ， 编码 长 度 Hen 
c Sch 138i os 3d dist. dub. None Midi arl 值 NN-100 PETRO URN E oe LS: 
ES | oe 相 较 于 PCAH 的 48.21%， 整 整 提高 了 33.37% 的 准确 率 。 在 
c X2 各 种 算法 在 CIFAR10 数据 库 上 的 mAP fft/96 比较 算法 中 ， 虽 然 SH 在 三 个 数据 集 上 的 准确 率 相对 较 好 ， 
© Table 2 Map values of each algorithm on CIFAR10 datasets/% 但 是 一 直 处 于 中 等 水 平 。 SGH 算法 在 GIST 数 ER 上 的 准确 
bit 32 64 128 率 仅 次 于 ISOH 算法 , 但 是 在 SIFT 上 的 准确 率 较 差 。 经 实验 
NN 10 100 10 100 10 100 结果 证 实 ISOH 算法 在 CIFAR10、GIST、SIFTIM 等 最 常用 
ISOH 8.54 40.73 1343 4942 1664 4941 数据 集中 ， 不 管 是 在 编码 长 度 为 32、64 还 是 128，ISOH 算 
KMH 520 30.73 9.64 39.06 12.86 46.05 法 的 准确 率 相 较 于 KMH. PCH, RR. LSH, SH fll SGH 算 
RR 174 1274 336 2245 587 2925 法 等 都 有 明显 提高 。 
PCAH 3.66 17.775 408 1840 3.87 1745 ISOH 在 聚 类 中 心 初始 化 的 问题 上 ， 使 用 最 远 平均 距离 
LSH 0.66 673 228 1587 513 2734 方法 ， 避 免 了 初始 聚 类 中 心 选 择 上 的 随机 性 和 盲目 性 。 在 现 
SGH 8.17 37.58 12.43 48.67 16.43 58.15 有 了 哈 希 算法 [568&101.14 中 ， 于 国定 编码 长 度 表 示 种 类 有 限 ， 
SH 307 2989 69% 3585 DAO ANT 导致 检索 精度 下 降 本 文 引入 了 检索 精度 较 高 的 多 重 编码 。 
NAM dA EI M bn E ads ISOH 算法 在 不 指定 数据 集 的 情况 下 ， 检 索性 能 也 能 表现 良 


Table 3 Map values of each algorithm on SIFT1M datasets /% 


好 。 通 过 各 项 实验 数据 的 对 比 ， 可 以 清晰 地 发 现 ISOH 算法 


bi 32 64 12 À 

- : 在 各 方面 具有 明显 优势 。 

NN 10 100 10 100 10 100 
ISOH 14.99 60.89 2622 74.51 33.85 81.58 4 ”结束 语 
KMH 14.66 6011 25.56 74.69 3346 8128 . . T A 

RR 12.12 5308 1610 6124 2646 79.56 与 KMH 算法 相 比 ,ISOH 算法 使 用 最 远 平均 算法 初始 化 
PCAH 1228 5257 1492 5627 1326 4821 聚 类 中 心 ， 保 证 了 聚 类 中 心 选择 的 可 靠 性 。ISOH 算法 可 根 
LSH 615 3197 12.14 5233 2256 71.08 据 样本 点 的 实际 情况 动态 地 设 定 阔 值 ， 无 须 再 试探 性 地 修改 
SGH 1.91 8.84 621 20.92 17.80 52.08 闵 值 ， 降 低 了 算法 的 训练 复杂 度 。 较 使 用 固定 编码 长 度 的 编 
SH 13.53 5634 21.80 69.16 28.58 75.86 码 方式 ， 多 重 编码 表示 的 种 类 更 多 ， 而 且 算 法 检索 准确 率 更 
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高 乘积 空间 的 使 用 , 使 算法 能 以 较 低 代价 学 习 更 长 的 编码 。 
经 实验 证 实 ，ISOH 算法 的 近邻 检索 性 能 优 于 KMH、RR、 
PCAH、LSH、SH 和 SGH 算法 。 
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